• AI搜长程上下文综述Transformers
    问AI
收起工具时间不限所有网页和文件站点内检索
搜索工具
百度为您找到以下结果
2024年1月3日然而,目前存在一个普遍的限制:由于资源受限,当前大多 LLM 主要是在较短的文本上进行预训练,导致它们在较长上下文方面的表现较差,而长上下文在现实世界的环境中是更加常见的。 最近的一篇综述论文对此进行了全面的调研,作者重点关注了基于 Transformer 的 LLM 模型体系结构在从预训练到推理的所有阶段中优化长上下文能力...
播报
暂停
2024年5月29日在脑科学中使用Transformers的动机 卷积神经网络(CNN)、递归神经网络 (RNN)和长短期记忆网络(LSTM)在医学数据分析和转化医学方面取得了重大成功,因为它们能够学习复杂的数据驱动表示。然而,CNN在捕获长程依赖关系方面受到限制,特别是在理解非本地对象之间的上下文和关系方面。另一方面,虽然RNN和LSTM是为序列数据设计的,但...
播报
暂停
2024年5月29日在脑科学中使用Transformers的动机 卷积神经网络(CNN)、递归神经网络 (RNN)和长短期记忆网络(LSTM)在医学数据分析和转化医学方面取得了重大成功,因为它们能够学习复杂的数据驱动表示。然而,CNN在捕获长程依赖关系方面受到限制,特别是在理解非本地对象之间的上下文和关系方面。另一方面,虽然RNN和LSTM是为序列数据设计的,但...
播报
暂停
2023年10月8日HuggingFace Transformers 库中,KV Cache 是随着执行动态申请显存空间,由于 GPU显存分配耗时一般都高于 CUDA kernel 执行耗时,因此动态申请显存空间会造成极大的时延开销,且会引入显存碎片化。FasterTransformer 中,预先为 KV Cache 分配了一个充分长的显存空间,用于存储用户的上下文数据。例如 LLaMA-7B 的上下文长度为 204...
播报
暂停
2023年2月27日Data-Efficient Image Transformers Distillation via Attention Touvron等人[51]提出了一种新技术,名为通过注意力训练数据高效图像Transformer蒸馏。作者提出了一种基于特定于Transformer的蒸馏令牌的师生策略。蒸馏令牌确保学生通过注意力从老师那里学习,通常是从ConvoNet老师那里学习。在ImageNet上,学习到的Transformer以最先进...
播报
暂停
随着深度神经网络的广泛应用,一些研究也试图将目标周围的上下文集成到深度神经网络中,并取得了一定的成效。以下将从基于隐式上下文特征学习和基于显式上下文推理的目标检测两个方面对国内外研究现状及发展动态进行简要综述。 (1)基于隐式上下文特征学习的目标检测。隐式上下文特征是指目标区域周围的背景特征或者全局的场景...
播报
暂停
2023年4月16日本文的目标是介绍Prompt-Tuning的方法,而Prompt-Tuning的动机则是进一步拉近微调与预训练阶段的任务目标,因此本部分则以常用的BERT为主,简单介绍Pre-training的经典方法,更加详细的解读,可参考:【预训练语言模型】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding(BERT)[2]。
播报
暂停
文件格式:PDF/Adobe Acrobat -
HTML版
其次,对于只给定未标记目标域数据的 预训练模型的输入进行修改.领域共享的提示用来 学习目标,DePT 通过创建的记忆库细化伪标记机 学习任务的上下文背景,学习好后就被固定而不被 制引导源域初始化模型.为了进一步缓解自训练过 10 计算机学报 中错误的积累,该方法还为提示学习设计了一个 分层自监督正则化项,从而...
2024年5月13日Mamba是一种新的选择性结构状态空间模型,在长序列建模任务中表现出色。Mamba通过全局感受野和动态加权,缓解了卷积神经网络的建模约束,并提供了类似于Transformers的高级建模能力。至关重要的是,它实现了这一点,而不会产生通常与Transformer相关的二次计算复杂性。由于其相对于前两种主流基础模型的优势,曼巴展示了其作为视...
播报
暂停